1 Executive summary

2 Problem

Raport służy do analizy potencjalnych przyczyn stopniowego karłowacenia śledzi oceanicznych wyławianych w Europie.

2.1 Źródło danych

Do analizy wykorzystano zbiór danych udostępniony przez prowadzącego na podstawie danych z połowów komercyjnych jednostek w przeciągu ostatnich 60 lat. Do analizy z połowu każdej jednostki wybierano między 50 a 100 sztuk trzyletnich śledzi.

2.2 Zbiór danych

Zbiór składa się z następujących danych:

  • length - analizowana długość złowionego śledzia [cm]
  • cfin1 - dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 1];
  • cfin2 - dostępność planktonu [zagęszczenie Calanus finmarchicus gat. 2];
  • chel1 - dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 1];
  • chel2 - dostępność planktonu [zagęszczenie Calanus helgolandicus gat. 2];
  • lcop1 - dostępność planktonu [zagęszczenie widłonogów gat. 1];
  • lcop2 - dostępność planktonu [zagęszczenie widłonogów gat. 2];
  • fbar - natężenie połowów w regionie [ułamek pozostawionego narybku];
  • recr - roczny narybek [liczba śledzi];
  • cumf - łączne roczne natężenie połowów w regionie [ułamek pozostawionego narybku];
  • totaln - łączna liczba ryb złowionych w ramach połowu [liczba śledzi];
  • sst - temperatura przy powierzchni wody [°C];
  • sal - poziom zasolenia wody [Knudsen ppt];
  • xmonth- miesiąc połowu [numer miesiąca];
  • nao - oscylacja północnoatlantycka [mb].

2.3 Wartości puste

W zbiorze danych pojawiają się braki wartości w przypadku kolumn: cfin1, cfin2, chel1, chel2, lcop1, lcop2, sst. Z uwagi na to, jesteśmy zmuszeni je odfiltrować, redukując ilość danych z 52582 do 42488 (81% danych jest pełnych).

3 Analiza

3.1 Podsumowanie danych

Po redukcji wartości pustej pozostajemy ze zbiorem posiadającym 42488 rekordów. Poniżej znajduje się tabela zbierające wszystkie zmienne uwzględniane w analizie.

X length cfin1 cfin2 chel1 chel2 lcop1
2 1 22.5 0.02778 0.27785 2.46875 21.43548 2.54787
3 2 25.0 0.02778 0.27785 2.46875 21.43548 2.54787
4 3 25.5 0.02778 0.27785 2.46875 21.43548 2.54787
5 4 24.0 0.02778 0.27785 2.46875 21.43548 2.54787
7 6 24.0 0.02778 0.27785 2.46875 21.43548 2.54787
8 7 23.5 0.02778 0.27785 2.46875 21.43548 2.54787
lcop2 fbar recr cumf totaln sst sal
2 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
3 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
4 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
5 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
7 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
8 26.35881 0.356 482831 0.3059879 267380.8 14.30693 35.51234
length cfin1 cfin2 chel1 chel2 lcop1 lcop2
Min. :19.0 Min. : 0.0000 Min. : 0.0000 Min. : 0.000 Min. : 5.238 Min. : 0.3074 Min. : 7.849
1st Qu.:24.0 1st Qu.: 0.0000 1st Qu.: 0.2778 1st Qu.: 2.469 1st Qu.:13.427 1st Qu.: 2.5479 1st Qu.:17.808
Median :25.5 Median : 0.1111 Median : 0.7012 Median : 5.750 Median :21.435 Median : 7.0000 Median :24.859
Mean :25.3 Mean : 0.4457 Mean : 2.0269 Mean :10.016 Mean :21.197 Mean : 12.8386 Mean :28.396
3rd Qu.:26.5 3rd Qu.: 0.3333 3rd Qu.: 1.7936 3rd Qu.:11.500 3rd Qu.:27.193 3rd Qu.: 21.2315 3rd Qu.:37.232
Max. :32.5 Max. :37.6667 Max. :19.3958 Max. :75.000 Max. :57.706 Max. :115.5833 Max. :68.736
fbar recr cumf totaln sst sal nao
Min. :0.0680 Min. : 140515 Min. :0.06833 Min. : 144137 Min. :12.77 Min. :35.40 Min. :-4.89000
1st Qu.:0.2270 1st Qu.: 360061 1st Qu.:0.14809 1st Qu.: 306068 1st Qu.:13.60 1st Qu.:35.51 1st Qu.:-1.90000
Median :0.3320 Median : 421391 Median :0.23191 Median : 539558 Median :13.86 Median :35.51 Median : 0.20000
Mean :0.3306 Mean : 519877 Mean :0.22987 Mean : 515082 Mean :13.87 Mean :35.51 Mean :-0.09642
3rd Qu.:0.4650 3rd Qu.: 724151 3rd Qu.:0.29803 3rd Qu.: 730351 3rd Qu.:14.16 3rd Qu.:35.52 3rd Qu.: 1.63000
Max. :0.8490 Max. :1565890 Max. :0.39801 Max. :1015595 Max. :14.73 Max. :35.61 Max. : 5.08000

Na podstawie podsumowania wartości poszczególnych zmiennych zauważyć można, że cfin1, cfin2, chel1, chel2, lcop1, lcop2, fbar, recr mogą posiadać outlayery, które powodować mogą utrudnienia w analizie dalszych danych. Kwestia ta zostanie poruszona przy szczegółowej analizie parametrów.

3.2 Szczegółowa analiza atrybutów

W tej sekcji zostanie przeprowadzona szczegółowa analiza poszczególnych analizowanych atrybutów. W przypadku wykresu histogramu wraz z gęstością, wartość na osi Y ukazuje gęstość prawdopodobieństwa. Histogram został dodany poglądowo.

3.2.1 Długość

Na podstawie powyższych wykresów zauważyć można, że długość śledzi przypomina rozkład normalny. Z tego powodu przeprowadzono test shapiro, żeby sprawdzić to założenie.

## 
##  Shapiro-Wilk normality test
## 
## data:  sample_n(df, 500)$length
## W = 0.98711, p-value = 0.0002109

Na podstawie wyników testu można założyć normalność rozkładu parametru długości.

Nie zawiera on outlayerów, które potencjalnie mogłyby powodować trudności przy dalszej analizie, skupiając się w okolicach wartości 25.5.

Ciekawą obserwacją, którą zauważyć można dopiero przy analizie gęstości prawdopodobieństwa jest fakt, iż większe istnieje większe prawdopodobieństwo wartości “pełnych” niż po przecinku. Może się to wiązać z faktem, że dane odnośnie długości mogą być spisywane przez ludzi czasem w systemie pełnych wartości, a czasem po ich zaokrągleniu.

xmonth mean_length
1 25.44887
2 24.87944
3 25.11590
4 25.31363
5 25.30740
6 25.63711
7 25.29590
8 25.31561
9 25.44773
10 25.20388
11 25.31721
12 25.21990

Na podstawie wykresu można zauważyć, że zdarzają się miesiące jak luty i marzec, gdzie średnia długość złapanych ryb potrafi być delikatnie niższa niż w pozostałych, gdzie średnia długość ryb wynosi w trakcie całego roku 25.3cm. Za to najdłuższa średnia długość występuje w czerwcu.

3.2.2 Dostępność planktonów

Przy wszystkich tych parametrach zauważyć można wartości odstające, które na rzecz szczegółowej analizy jesteśmy zmuszeni porzucić. Są to zazwyczaj pojedyncze odczyty znacznie odstające od wszystkich innych.

3.2.2.1 Cfin1

Z uwagi na pojedynczą wartość silnie odstającą w porównaniu do pozostałych, w celu poprawnej analizy jesteśmy zmuszeni do pozbycia się tej pojedynczej wartości odstającej mającej wartość 37.66667.

Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 0.11111, jednak wciąż pojawiają się wartości przekraczające 0.75.

3.2.2.2 Cfin2

Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 0.70118. Mimo to, pojawiają się przypadki, gdzie zaobserwować można odczyty z wartościami powyżej 10, jendak z uwagi, że nie są to pojedyncze odczyty, pozostawiamy je w naszej analizie.

3.2.2.3 chel1

Zauważyć można, że wartości tego parametru bardzo silnie skupiają się do okoła wartości 5.75. Zauważyć jednak można odczyty powyżej wartości 20, które mogą być istotne na naszą analizę. Wyjątkiem jest pojedynczy odczyt wartości maksymalnej w naszej analizie.

3.2.2.4 chel2

Zauważyć można, że rozkład tego parametru jest stosunkowo mocno rozłożony, nie gromadząc się tak bardzo do okoła jednej wartości. Z uwagi na pojedynczą, odstającą wartość maksymalną byliśmy zmuszeni do usunięcia tego odczytu.

3.2.2.5 lcop1

Zauważyć można, że rozkład parametru nie skupia się do okoła jednej wartości tak mocno, jednak posiada tendencje do osiągania wartości bliskiej 3. Atrybut ten jest w stanie dość często osiągać wartości powyżej 20.

3.2.2.6 lcop2

Zauważyć można, że rozkład parametru miewa tendencje do gromadzenia się w około wartości 24. Zdarzają się jednak sytuacje, gdzie odczyty wynoszą powyżej 40.

3.2.3 Natężenia połowów

Połowy zwyczajowo pozostawiają 0.327% narybku. Zdarzają się jednak sytuacje, gdzie wartość ta w stopniu znacznym przekracza 50%.

3.2.4 Roczny narybek

Przeciętny roczny połów gromadzi się zwyczajowo w okolicach wartości 0.327. Zdarzaja się jednak roczne połowy ponad 3x większe od tych przeciętnych, jednak przypadki powyżej 1.000.000 występują znacznie rzadziej.

3.2.5 Roczne natężenie połowów w rejonie

Łączne roczne natężenie połowów w regionie jest znacznie bardziej rozłożone między wartościami 0 a 0.4. Jest to wartość dość szeroko rozłożona między tymi wartościami, bez wartości do około której gromadzą się najczęstrze odczyty.

3.2.6 Łączna liczb ryb złowionych w ramach połowu

Łączna liczba ryb złowionych w ramach połowu rozkłąda się stosunkowo równo w całym przedziale, od 80.000 do 800.000. Mimo tego, pojawiają się pojedyncze połowy z ponad 1.000.000 złowionymi rybami

3.2.7 Temperatura przy powierzchni wody

Temperatura przy powierzchni zwyczajowo osiąga wartości w okolicach 14 stopni celsjusza. Mimo to pojawiają się odczyty, gdy osiąga wartości poniżej 13 stopni.

3.2.8 Poziom zasolenia wody

Poziom zasolenia wody gromadzi się bardzo mocno do okoła wartości 35.5123389. Wszystkie jednak odczyty znajdują się w przedziale między 35.35% a 35.7%. Odczylenia od wartości centralnej są nieznaczne.

3.2.9 Miesiąc połowu

Najmniej pomiarów zostało wykonanych zimą, a najwięcej w okresie letnio-jesiennym. W pozostałych miesiącach ilość pomiarów jest na poziomie ok 2000.

3.2.10 Oscylacja północnoatlantycka

Wartość oscylacji północnoatlantyckiej rozkłada się stosunkowo równo między wartościami -3, a 2.5, jednak zdarzają się pojedyncze odczyty, gdzie parametr ten osiąga wartość bliską 5.0.

3.3 Analiza korelacji między zmiennymi

Poniżej znajduje się tabela zawierające współczynniki korelacji pearsona.

length cfin1 cfin2 chel1 chel2 lcop1 lcop2
length 1.00 0.08 0.11 0.13 -0.08 0.16 0.01
cfin1 0.08 1.00 0.14 0.14 0.06 0.13 0.11
cfin2 0.11 0.14 1.00 0.06 0.32 -0.02 0.68
chel1 0.13 0.14 0.06 1.00 0.19 0.89 0.20
chel2 -0.08 0.06 0.32 0.19 1.00 -0.02 0.87
lcop1 0.16 0.13 -0.02 0.89 -0.02 1.00 0.01
lcop2 0.01 0.11 0.68 0.20 0.87 0.01 1.00
fbar 0.22 -0.10 0.17 -0.13 -0.05 -0.19 0.00
recr 0.02 0.12 -0.11 0.17 0.04 0.20 0.03
cumf -0.01 -0.07 0.35 -0.08 0.25 -0.18 0.28
totaln 0.09 0.19 -0.21 0.24 -0.40 0.37 -0.31
sst -0.44 0.02 -0.25 -0.23 0.04 -0.28 -0.10
sal 0.08 0.22 -0.09 0.05 -0.16 0.10 -0.13
nao -0.21 0.00 -0.03 -0.39 0.02 -0.45 0.02
fbar recr cumf totaln sst sal nao
length 0.22 0.02 -0.01 0.09 -0.44 0.08 -0.21
cfin1 -0.10 0.12 -0.07 0.19 0.02 0.22 0.00
cfin2 0.17 -0.11 0.35 -0.21 -0.25 -0.09 -0.03
chel1 -0.13 0.17 -0.08 0.24 -0.23 0.05 -0.39
chel2 -0.05 0.04 0.25 -0.40 0.04 -0.16 0.02
lcop1 -0.19 0.20 -0.18 0.37 -0.28 0.10 -0.45
lcop2 0.00 0.03 0.28 -0.31 -0.10 -0.13 0.02
fbar 1.00 -0.20 0.82 -0.54 -0.16 0.11 0.19
recr -0.20 1.00 -0.24 0.38 -0.22 0.25 0.03
cumf 0.82 -0.24 1.00 -0.72 0.05 -0.07 0.30
totaln -0.54 0.38 -0.72 1.00 -0.29 0.15 -0.40
sst -0.16 -0.22 0.05 -0.29 1.00 -0.02 0.51
sal 0.11 0.25 -0.07 0.15 -0.02 1.00 0.05
nao 0.19 0.03 0.30 -0.40 0.51 0.05 1.00

Na podstawie danych można dojrzeć silniejsze związki (z wartością współczynnika korelacji pearsona powyżej 0.5, bądź poniżej -0.5) pomiędzy następującymi wartościami:

  • cfin2 oraz lcop2: 0.68
  • chel1 oraz lcop1: 0.89
  • chel2 oraz lcop2: 0.87
  • fbar oraz cumf: 0.82
  • fbar oraz totaln: -0.54
  • cumf oraz totaln: -0.72
  • sst oraz nao: 0.51

3.3.1 Szczegółowa analiza korelacji pomiędzy poszczególnymi zmiennymi

W tym punkcie w celu uproszczenia wizualizacji, ograniczamy zbiór wartości do 200 losowo wybranych wartości, w celu lepszej widoczności na wykresie.

3.3.1.1 Korelacja z długością

Zgodnie oczekiwaniami na podstawie wartości z macierzy korelacji, żadna ze zmiennycyh nie przejawia silnej korelacji z długością śledzi. Zauważyć jednak można słabą, odwrotnie proporcjonalną zależność pomiędzy długością, a temperaturą przy powierzchni wody.

3.3.1.2 Korelacja między cfin2, a lcop2

Na podstawie wykresu zauważyć można delikatną zależność pomiędzy parametrami. Nie jest to jednak bardzo istotna zależność.

Możliwe, że poszczególne rodzaje glonów mają podobne wymagania, bądź koegzystują one w środowisku naturalnym, co tyczy się kolejnych 2 rozważanych zależności.

3.3.1.3 Korelacja między chel1, a lcop1

Na podstawie wykresu można zauważyć silną zależność pomiędzy parametrami. Jest ona bliska zależności liniowej.

3.3.1.4 Korelacja między chel2, a lcop2

Na podstawie wykresu można zauważyć silną zależność pomiędzy parametrami. Jest ona bliska zależności liniowej.

3.3.1.5 Korelacja między fbar, a cumf

Na podstawie wykresu można zauważyć średnią zależność pomiędzy parametrami.

Zależność pomiędzy natężeniem połowów w regionie oraz łącznym natężeniem połowów w regionie oznacza, że zazwyczaj wzrosty połowów w poszczególnych regionach mogą rosnąć w miarę proporcjonalnie.

3.3.1.6 Korelacja między fbar, a totaln

Na podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.

Zależność pomiędzy natężeniem połowów w regionie oraz łączną liczbą ryb złowionych w ramach połowu jest róWnież racjonalna. Czym częściej przeprowadzane i czym większe są połowy, tym mniej ryb potencjalnie pozostaje w regionie na kolejne połowy.

3.3.1.7 Korelacja między cumf, a totaln

Na podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.

Zależność pomiędzy natężeniem połowów w regionie oraz łączną liczbą ryb złowionych w ramach połowu jest róWnież racjonalna. Czym częściej przeprowadzane i czym większe są połowy, tym mniej ryb potencjalnie pozostaje w regionie na kolejne połowy.

3.3.1.8 Korelacja między sst, a nao

Na podstawie wykresu można zauważyć średnia zależność pomiędzy parametrami.

Oscylacja północnoatlantycka wpływa na cyrkulacje powietrza oraz wody oceanicznej, co faktycznie może miec możliwość wpływu na temperature przy powierzchni wody.

Ciekawą obserwacją jest fakt, że w miesiącach zimowych (listopad-luty), wartość korelacji jest większa od wartości w miesiącach letnich (czerwiec-sierpień): 0.598973 > 0.4752594.

3.4 Przewidywanie rozmiaru śledzia

W naszej analizie przygotujemy 4 modele do przewidywania długości śledzi, na tych samych danych.

3.4.1 Dane

Dane do uczenia dzielimy na 3 zbiory:

  • treningowy - na którym odbędzie się uczenie (75% całego zbioru danych);
  • testowy - na którym będzie sprawdzana wydajność modelu (25% całego zbioru danych);
  • kontrolny - określony poprzez powtórną krosswalidacje z 2 iteracjami ponownego próbkowania oraz z 5 krotną ilością powtórzeń.

3.4.2 Linear Regression

## Warning in train.default(x, y, weights = w, ...): The metric "rsquared" was not
## in the result set. RMSE will be used instead.
## Linear Regression 
## 
## 30521 samples
##    14 predictor
## 
## Pre-processing: centered (24), scaled (24) 
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 15261, 15260, 15260, 15261, 15262, 15259, ... 
## Resampling results across tuning parameters:
## 
##   intercept  RMSE       Rsquared  MAE      
##   FALSE      25.279555  0.322375  25.243276
##    TRUE       1.353873  0.322375   1.076695
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was intercept = TRUE.

Najprostrzy z modeli, biorący pod wagę przede wszystkim parametr fbar, cumf oraz sst, a w następnej kolejności wartości związanie z niektórymi glonami i miesiącami.

Tylko w nieznacznym stopniu uwzględnia niektóre miesiące czy niektóre rodzaje glonów, skupiając się bardziej na informacjach odnośnie wielkości połowów, ich częstotliwości oraz temperaturze wody.

3.4.3 RIDGE

## Warning in train.default(x, y, weights = w, ...): The metric "rsquared" was not
## in the result set. RMSE will be used instead.
## Ridge Regression 
## 
## 30521 samples
##    14 predictor
## 
## Pre-processing: centered (24), scaled (24) 
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 15260, 15261, 15261, 15260, 15261, 15260, ... 
## Resampling results across tuning parameters:
## 
##   lambda     RMSE      Rsquared   MAE     
##   0.0000000  1.354329  0.3219967  1.077066
##   0.2631579  1.390407  0.2854528  1.108196
##   0.5263158  1.407455  0.2685010  1.120644
##   0.7894737  1.419101  0.2588695  1.129451
##   1.0526316  1.428637  0.2523673  1.136813
##   1.3157895  1.436992  0.2475506  1.143477
##   1.5789474  1.444524  0.2437739  1.149593
##   1.8421053  1.451406  0.2406986  1.155288
##   2.1052632  1.457743  0.2381262  1.160614
##   2.3684211  1.463603  0.2359309  1.165564
##   2.6315789  1.469042  0.2340283  1.170128
##   2.8947368  1.474103  0.2323588  1.174313
##   3.1578947  1.478824  0.2308789  1.178176
##   3.4210526  1.483235  0.2295560  1.181753
##   3.6842105  1.487366  0.2283649  1.185082
##   3.9473684  1.491242  0.2272857  1.188184
##   4.2105263  1.494884  0.2263027  1.191092
##   4.4736842  1.498313  0.2254029  1.193816
##   4.7368421  1.501545  0.2245758  1.196376
##   5.0000000  1.504598  0.2238127  1.198789
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was lambda = 0.

Model ten w podobnym stopniu bierze pod uwagę parametry wszystkie parametry poza cfin1 który jest znacznie mniej dla niego istotny oraz poza miesiącem, który jest przez niego kompletnie ignorowany.

3.4.4 LASSO

## The lasso 
## 
## 30521 samples
##    14 predictor
## 
## Pre-processing: centered (24), scaled (24) 
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 15262, 15259, 15259, 15262, 15261, 15260, ... 
## Resampling results across tuning parameters:
## 
##   fraction    RMSE      Rsquared   MAE     
##   0.00000000  1.644644        NaN  1.330961
##   0.05263158  1.556105  0.1982679  1.254193
##   0.10526316  1.497711  0.2019415  1.204101
##   0.15789474  1.464099  0.2195357  1.176360
##   0.21052632  1.444508  0.2378946  1.159408
##   0.26315789  1.428168  0.2556981  1.144676
##   0.31578947  1.414156  0.2700348  1.131982
##   0.36842105  1.402181  0.2814018  1.121081
##   0.42105263  1.392274  0.2900246  1.111979
##   0.47368421  1.384097  0.2973876  1.104297
##   0.52631579  1.377120  0.3035319  1.097583
##   0.57894737  1.371366  0.3083053  1.091986
##   0.63157895  1.366761  0.3120334  1.087960
##   0.68421053  1.363023  0.3151224  1.084796
##   0.73684211  1.359971  0.3176223  1.082141
##   0.78947368  1.357554  0.3195471  1.079975
##   0.84210526  1.355797  0.3208932  1.078351
##   0.89473684  1.354717  0.3216971  1.077348
##   0.94736842  1.354167  0.3221346  1.076877
##   1.00000000  1.354077  0.3222065  1.076801
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was fraction = 1.

Model doszedł do podobnego wniosku jak poprzedni, biorąc pod uwagę parametry wszystkie parametry poza cfin1 który jest znacznie mniej dla niego istotny oraz poza miesiącem, który jest przez niego kompletnie ignorowany.

3.4.5 Random Forest

## Warning in train.default(x, y, weights = w, ...): The metric "rsquared" was not
## in the result set. RMSE will be used instead.
## Random Forest 
## 
## 30521 samples
##    14 predictor
## 
## Pre-processing: centered (24), scaled (24) 
## Resampling: Cross-Validated (2 fold, repeated 5 times) 
## Summary of sample sizes: 15259, 15262, 15261, 15260, 15261, 15260, ... 
## Resampling results across tuning parameters:
## 
##   mtry  RMSE      Rsquared   MAE      
##    2    1.168245  0.4965309  0.9243836
##    3    1.159699  0.5030078  0.9165690
##    4    1.155100  0.5067784  0.9120447
##    5    1.152890  0.5086578  0.9089597
##    6    1.152506  0.5090805  0.9079112
##    7    1.153044  0.5086967  0.9081653
##    8    1.153732  0.5081797  0.9082725
##    9    1.155061  0.5071897  0.9094000
##   10    1.155194  0.5071315  0.9091117
##   11    1.155482  0.5069305  0.9094288
##   12    1.155718  0.5067592  0.9094810
##   13    1.156310  0.5063098  0.9097402
##   14    1.156528  0.5061038  0.9100393
##   15    1.157093  0.5057092  0.9104662
## 
## RMSE was used to select the optimal model using the smallest value.
## The final value used for the model was mtry = 6.

Model najbardziej zwrócił uwagę na parametr sst, fbar oraz totaln, czyli na parametry, które analogicznie, były istotne w pozostałych modelach.

3.4.6 Porównanie

## 
## Call:
## summary.resamples(object = models)
## 
## Models: lm, ridge, lasso, rf 
## Number of resamples: 10 
## 
## MAE 
##           Min.   1st Qu.    Median      Mean   3rd Qu.      Max. NA's
## lm    1.072793 1.0752805 1.0768614 1.0766953 1.0781833 1.0808626    0
## ridge 1.069572 1.0732301 1.0769895 1.0770664 1.0804504 1.0844883    0
## lasso 1.069844 1.0734484 1.0765377 1.0768011 1.0807263 1.0833661    0
## rf    0.901797 0.9029199 0.9086953 0.9079112 0.9115613 0.9139328    0
## 
## RMSE 
##           Min.  1st Qu.   Median     Mean  3rd Qu.     Max. NA's
## lm    1.347917 1.350318 1.353461 1.353873 1.358300 1.359916    0
## ridge 1.343103 1.349703 1.354382 1.354329 1.359116 1.365257    0
## lasso 1.343547 1.348834 1.354084 1.354077 1.359316 1.363902    0
## rf    1.142723 1.147006 1.152630 1.152506 1.157333 1.164865    0
## 
## Rsquared 
##            Min.   1st Qu.    Median      Mean   3rd Qu.      Max. NA's
## lm    0.3161234 0.3180881 0.3225996 0.3223750 0.3262080 0.3291795    0
## ridge 0.3166177 0.3186248 0.3219248 0.3219967 0.3252442 0.3278871    0
## lasso 0.3173629 0.3204683 0.3219148 0.3222065 0.3241017 0.3264110    0
## rf    0.4993606 0.5071474 0.5099254 0.5090805 0.5117742 0.5166064    0

Regresja liniowa:

x
RMSE 1.3680331
Rsquared 0.3091737
MAE 1.0886246

RIDGE:

x
RMSE 1.3680331
Rsquared 0.3091737
MAE 1.0886246

LASSO:

x
RMSE 1.3680331
Rsquared 0.3091737
MAE 1.0886246

Random forest:

x
RMSE 1.1555121
Rsquared 0.5070927
MAE 0.9127902

Porównując wyniki wszystkich 4 modeli, możemy zauważyć, że model regresji liniowej posiada najgorszą wartość RMSE oraz Rsquared. Najlepsze wartości natomiast prezentuje algorytm Random forest, który to osiąga znacznie lepsze wartości wszystkich parametrów testowych. Mimo wszystko wybrane modele nie mają w pełni satysfakcjonującej efektywności.

4 Wnioski